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^ = (57) Abstract: The invention relates to a cryptographic processor for carrying out operations for cryptographic applications and 
comprising a large number of coprocessors (104a, 104b, 104c), each coprocessor having a control unit and an arithmetic unit, a 
central processing unit ( 1 02) for controlling the large number of coprocessors ( 1 04a, 1 04b, 1 04c) and a bus ( 1 01 ) for connecting each 
coprocessor (104a, 104b, 104c) to the central processing unit (102). The central processing unit (102), the majority of coprocessors 
<S (104a, 104b, 104c) and the bus (101) are integrated into a single chip (100). The chip also comprises a common power supply input 
(122) for supplying the large number of coprocessors (104a, 104b, 104c). The connection in series of different coprocessors increases 
the throughput of the cryptographic processor and simultaneously improves the security of said processor against attacks, made on 
the basis of an evaluation of output profiles of the cryptographic processor, as the output profiles of at least two coprocessors are 
superimposed. By using different types of coprocessors, the cryptographic processor can also be configured as a multifunctional 
cryptographic processor suitable for use with a multitude of different cryptographic algorithms. 

TT 

fsj (57) Zusammenfassung: Ein Kryptographieprozessor zum Durchfuhren von Operationen fiir kryptographische Anwendungen urn 
O fasst eine Mehrzahl von Coprozessoren (104a, 104b, 104c), wobei jeder Coprocessor eine Steuereinheit und cine arithmetische 

Oliinheit aufweist, eine zentrale Verarbeitungseinheit (102) zum Ansteuern der Mehrzahl von Coprozessoren (104a, 104b, 104c) und 
einen Bus (101) zum Verbinden jedes Coprozessors (104a, 104b, 104c) 

[Forlsetzung aufder nachsten Scite] 
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mil der zentralen Verarbeitungseinheit (102). Die zentrale Verarbeitungseinheit (102), die Mehrzahl von Coprozessoren (104a, 
104b, 104c) und der Bus (101) sind auf einem einzigen Chip (100) integriert. Der Chip umfasst ferner einen gemeinsamen 
Versorgungsstromzugang (122) zum Versorgen der Mehrzahl von Coprozessoren (104a, 104b, 104c). Durch Parallelschaltung 
verschiedener Coprozessoren wird cine Erhohung des Durchsatzes und zugleich cine Verbesserung der Sicherheit des Kryptogra- 
phieprozessors gegenubcr Angriffen crreicht, welche auf der Auswertung von Leistungsprofilen des Kryptographieprozessors 
aufbauen, da Leistungsprofile zumindest zweicr Coprozessoren iiberlagcrt sind. l ; erner kann der Kryptographieprozessor auch 
durch Verwendung vcrschicdenartiger Coprozessoren als multifunkiionaler Kryptographieprozessor ausgcstaltet werden, um fUr 
eine Vielzahl von verschicdencn kryptographischen Algorithmen gceignct zu sein. 
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Beschreibung 
Kryptographieprozessor 

Die vorliegende Erfindung bezieht sich auf Kryptographietech- 
niken und insbesondere auf die Architektur von fur kryptogra- 
phische Anwendungen verwendeten Kryptographieprozessoren. 

Mit zunehmender Verbreitung von bargeldlosem Zahlungsverkehr, 
elektronischer Datentibertragung uber of f entliche Netze, Aus- 
tausch von Kreditkartennummern uber offentliche Netze und 
allgemein gesagt der Verwendung von sogenannten Smart Cards 
fur Zahlungs-, Identif ikations- oder Zugrif f szwecke entsteht 
ein immer groflerer Bedarf nach Kryptographietechniken. Kryp- 
tographietechniken umfassen einerseits Kryptographiealgorith- 
men und andererseits geeignete Prozessorenlosungen, welche 
die durch die Kryptographiealgorithmen vorgeschriebenen Be- 
rechnungen ausfuhren. Wurden fruher Kryptographiealgorithmen 
mit Allzweckrechnern ausgefiihrt, so spielten die Kosten, der 
Rechenzeitbedarf und die Sicherheit gegeniiber verschiedenar- 
tigsten Fremdattacken keine derart entscheidende Rolle wie 
heutzutage, wo kryptographische Algorithmen immer mehr auf 
Chipkarten oder speziellen Sicherheits-Ics ausgefiihrt werden, 
fur die besondere Anforderungen gelten. So mussen solche 
Smart Cards einerseits preisgtinstig verfUgbar sein, da sie 
Massenprodukte sind, andererseits jedoch eine groJJe Sicher- 
heit gegenUber Fremdattacken aufweisen, da sie vollstandig in 
der Gewalt des potentiellen Angreifers sind. 

Darilber hinaus mttssen kryptographische Prozessoren eine be- 
achtliche Rechenleistung zur Verfugung stellen, zumal die Si- 
cherheit von vielen kryptographischen Algorithmen, wie z. B. 
dem bekannten RSA-Algorithmus, entscheidend von der Lange der 
verwendeten Schlilssel abhangt. In anderen Worten ausgedruckt 
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bedeutet dies, dass mit zunehmender Lange der zu verarbeiten- 
den Zahlen auch die Sicherheit ansteigt, da ein Angriff, der 
auf dem Ausprobieren aller Moglichkeiten basiert, aus Rechen- 
zeitgriinden unmoglich gemacht wird. 

In Zahlenwerten ausgedruckt bedeutet dies, dass Kryptogra- 
phieprozessoren mit Integers, d. h. Ganzzahlen, umgehen miis- 
sen, welche eine Lange von vielleicht 1024 Bits, 2048 Bits 
Oder vielleicht sogar noch mehr haben konnen. Zum Vergleich 
verarbeiten Prozessoren in einem iiblichen PC 32-Bit- bzw. 64- 
Bit-Ganzzahlen. Lediglich bei der Berechnung unter Verwendung 
von elliptischen Kurven liegt die Stellenzahl bei niedrigeren 
Werten im Bereich von 160 Stellen, was jedoch immer noch 
deutlich iiber den iiblichen PC-Stellenzahlen ist. 

Ein hoher Rechenaufwand bedeutet jedoch auch eine hohe Re- 
chenzeit, so dass fur Kryptographieprozessoren gleichzeitig 
auch die wesentliche Anforderung darin besteht, einen hohen 
Rechendurchsatz zu erreichen, damit beispielsweise eine Iden- 
tifikation, ein Zugang zu einem Gebaude, eine Bezah- 
lungstransaktion oder eine Kreditkartenubermittlung nicht 
viele Minuten dauert, was fur die Marktakzeptanz sehr schad- 
lich ware. 

Zusammenf assend lasst sich daher feststellen, dass Kryptogra- 
phieprozessoren sicher, schnell und daher auJJerordentlich 
leistungsstark sein miissen. 

Eine Moglichkeit, um den Durchsatz durch einen Prozessor zu 
erhohen, besteht darin, eine zentrale Verarbeitungseinheit 
mit einem oder mehreren Coprozessoren, welche parallel arbei- 
ten, auszustatten, wie es beispielsweise bei modernen PCs 
oder aber auch bei modernen Graphikkarten der Fall ist. Ein 
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solches Szenario ist in Fig. 7 gezeigt. Fig. 7 zeigt eine 
Computerplatine 800, auf der eine CPU 802, ein Arbeitsspei- 
cher (RAM) 804, ein erster Coprozessor 806, ein zweiter Co- 
processor 808 sowie ein dritter Coprozessor 810 angeordnet 
sind. Die CPU 802 ist mit den drei Coprozessoren 806, 808, 
810 iiber einen Bus 812 verbunden. Ferner kann fur jeden Co- 
prozessor ein eigener Speicher vorgesehen sein, welcher nur 
fur Operationen des Coprozessors dient, d. h. ein Speicher 1 
814, ein Speicher 2 816 fUr den Coprozessor 2 sowie ein Spei- 
cher 3 818 fur den Coprozessor 3. 

Ferner wird jeder Chip, der auf der in Fig. 7 gezeigten Com- 
puterplatine 800 angeordnet ist, uber einen eigenen Strom- 
bzw. Spannungsversorgungsanschluss Ii bis Is mit der fur das 
Funktionieren der elektronischen Komponenten innerhalb der 
einzelnen Elemente benotigten elektrischen Leistung versorgt. 
Fur die Platine kann alternativ auch nur eine Stromversorgung 
vorhanden sein, die dann uber die Platine zu den einzelnen 
Chips auf der Platine verteilt wird. Dabei stehen jedoch die 
Versorgungsleitungen zu den einzelnen Chips fur einen Angrei- 
fer zur VerfUgung. 

Das in Fig. 7 gezeigte Konzept fur ubliche Computeranwendun- 
gen ist aus mehreren Grunden fur Kryptographieprozessoren un- 
geeignet. Zum einen sind alle Elemente fur die Kurzzahl- 
Arithmetik aufgefUhrt, wahrend Kryptographieprozessoren Lang- 
zahlarithmetik-Operationen durchfuhren mtissen. 

Des weiteren weist jeder Chip auf der Computerplatine 800 ei- 
nen eigenen Strom- bzw. Leistungszugang auf, auf den ohne 
weiteres von einem Angreifer zugegriffen werden kann, um Lei- 
stungsprof ile oder Stromprofile iiber der Zeit abzugreifen. 
Das Abgreifen von Leistungsprof ilen uber der Zeit ist die Ba- 
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sis fiir eine Vielzahl von effizienten Attacken gegeniiber 
Kryptographieprozessoren. Weitere Hintergrunde bzw. eine de- 
taillierte Darstellung verschiedener Attacken gegen Krypto- 
graphieprozessoren sind in "Information Leakage Attacks 
Against Smart Card Implementations of Cryptographic Algo- 
rithms and Countermeasures", Hess u. a., Eurosmart Security 
Conference, 13. Juni bis 15. Juni 2000, dargestellt. Als Ge- 
genmaJinahmen werden Implementationen vorgeschlagen, welche 
darauf aufbauen, dass verschiedene Operationen immer die 
gleiche Zeit benotigen, so dass ein Angreifer aufgrund eines 
Leistungsprof ils nicht ersehen kann, ob der Kryptographiepro- 
zessor eine Multiplikation, eine Addition oder irgend etwas 
anderes ausgefuhrt hat. 

In "Design of Long Integer Arithmetic units for Public-Key 
Algorithms", Hess u. a. Eurosmart Security Conference, 13. 
Juni bis 15. Juni 2000 wird auf verschiedene Rechenoperatio- 
nen eingegangen, welche von Kryptographie-Prozessoren aus- 
fuhrbar sein miissen. Insbesondere wird auf die modulare Mul- 
tiplikation, Verfahren zur modularen Reduktion sowie auf das 
sogenannten ZDN-Verf ahren eingegangen, das in dem deutschen 
Patent DE 36 31 992 C2 dargestellt ist. 

Das ZDN-Verf ahren basiert auf einer Seriell/Parallel- 
Architektur unter Verwendung von parallel ausfuhrbaren Look- 
Ahead Algorithmen fur die Multiplikation und die modulare Re- 
duktion, um eine Multiplikation zweier Binarzahlen in eine 
iterative 3-Operanden-Addition unter Verwendung von Look- 
Ahead-Parametern fur die Multiplikation und die modulare Re- 
duktion zu trans formieren. Hierzu wird die modulare Multipli- 
kation in eine serielle Berechnung von Partialprodukten zer- 
legt. Zu Beginn der Iteration werden zwei Partialprodukte ge- 
bildet und dann unter Berucksichtigung der modularen Redukti- 
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on zusammenaddiert, um ein Zwischenergebnis zu erhalten. 
Hierauf wird ein weiteres Partialprodukt gebildet und wieder 
unter Beriicksichtigung der modularen Reduktion zu dem Zwi- 
schenergebnis hinzuaddiert . Diese Iteration wird fortgesetzt, 
bis samtliche Stellen des Multiplikators abgearbeitet sind. 
Fur die Drei-Operanden-Addition umfasst ein Kryptocoprozessor 
ein Addierwerk, welches in einem aktuellen Iterationsschritt 
die Summation eines neuen Partialprodukts zu dem Zwischener- 
gebnis des vorausgehenden Iterationsschritts durchfuhrt. 

So konnte jeder Coprozessor von Fig. 7 mit einer eigenen ZDN- 
Einheit ausgestattet sein, um mehrere modulare Multiplikatio- 
nen parallel auszufuhren, um fur bestimmte Anwendungen den 
Durchsatz zu erhohen. Diese Losung wurde jedoch wiederum dar- 
an scheitern, dass ein Angreifer von jedem Chip einzeln die 
Stromprofile eruieren konnte, so dass zwar eine Erhohung des 
Durchsatzes erreicht worden ist, jedoch auf Kosten der Si- 
cherheit des Kryptographie-Rechners . 

Die Aufgabe der vorliegenden Erfindung besteht darin, einen 
schnellen und sicheren Kryptographieprozessor zu schaffen. 

Diese Aufgabe wird durch einen Kryptographieprozessor nach 
Patentanspruch 1 geldst. 

Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, 
dass von der herkommlichen Art und Weise zum Parallelisieren 
von kryptographischen Operationen weggegangen werden muss. 
Kryptographieprozessoren gemaB der vorliegenden Erfindung 
sind auf einem einzigen Chip implementiert . Eine Mehrzahl von 
Coprozessoren sind viber einen Bus mit einer zentralen Verar- 
beitungseinheit verbunden, wobei samtliche Coprozessoren 
durch einen gemeinsamen Stromversorgungsanschluss mit Lei- 
stung versorgt werden. Dann ist es einem Angreifer nur noch 
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sehr schwer oder sogar nicht mehr moglich, die Operationen 
der einzelnen Coprozessoren anhand eines Leistungsprof ils an 
dem Stromversorgungsanschluss "abzuhoren". Zur Erhdhung des 
Durchsatzes des Kryptographieprozessors sind die Coprozesso- 
ren tiber den Bus parallel mit der zentralen Verarbeitungsein- 
heit verbunden, derart, dass eine arithmetische Operation 
durch die zentrale Verarbeitungseinheit (CPU) auf die einzel- 
nen Coprozessoren verteilt werden kann. 

Vorzugsweise sind mehrere verschiedene Typen von Coprozesso- 
ren auf dem einen Chip integriert, so dass der Kryptographie- 
prozessor als iaultifunktionaler Kryptographieprozessor einge- 
setzt werden kann. Mit anderen Worten bedeutet dies, dass ein 
Coprozessor bzw. eine Gruppe von Coprozessoren fiir asymmetri- 
sche Verschlusselungsverf ahren, wie z. B. den RSA- 
Algorithmus, ausgestaltet sind. Wieder andere Kryptocoprozes- 
soren sind zur Durchfuhrung von arithmetischen Operationen 
vorgesehen, welche z. B. fur DES-Verschltisselungsverf ahren 
notig sind. Ein weiterer Coprozessor bzw. mehrere weitere 
Coprozessoren bilden z. B. ein AES-Modul, urn symmetrische 
Verschlusselungsverf ahren durchfUhren zu konnen, wahrend wie- 
der andere Coprozessoren z. B. ein Hash-Modul bilden, um 
Hash-Werte zu berechnen. Damit wird ein sicherer multifunk- 
tionaler Kryptographieprozessor erhalten, welcher, wenn er 
eine entsprechende Anzahl von Kryptocoprozessoren umfasst, 
ftlr viele verschiedene Verschlusselungsverf ahren eingesetzt 
werden kann. Ein solcher multifunktionaler Kryptographiepro- 
zessor ist insbesondere fur Server-Anwendungen z. B. im In- 
ternet vorteilhaft, derart, dass mit einem Server viele ver- 
schiedene Verschlusselungsaufgaben ausgeftlhrt werden konnen. 

Multifunktionalitat ist jedoch auch fur Smart Cards von Vor- 
teil, zumal verschiedene Verschliisselungskonzepte parallel 
vorhanden sind bzw. sich immer weiter ausbreiten. So wird ei- 
ne Smart Card am Markt erfolgreich sein, wenn sie viele ver- 
schiedenen Funktionalitaten ausfilhren kann, und zwar im Ver- 
gleich zu einem Konzept mit vielen verschiedenen Smart Cards 
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filr viele verschiedenen Operationen, da ein Smart Card Inha- 
ber in seiner Brieftasche lediglich eine einzige Smart Card 
halten muss und nicht beispielsweise 10 verschiedene Smart 
Cards fur 10 verschiedene Anwendungen. 

Des weiteren liefert der erf indungsgemafie Kryptographiepro- 
zessor nicht nur Multifunktionalitat, sondern dariiber hinaus 
eine hohere Sicherheit. Die hdhere Sicherheit ist gewisserma- 
Ben ein "Abf allprodukt" der Multifunktionalitat, da die ver- 
schiedenen kryptographischen Algorithmen verschiedene Opera- 
tionen und damit verschiedene Leistungsprofile haben. Selbst 
wenn immer nur ein Kryptocoprozessor einen Algorithmustyp 
ausfUhrt und die anderen Kryptocoprozessoren gerade ruhen, da 
sie nicht angesprochen worden sind, existiert flir einen An- 
greifer eine weitere Barriere dahingehend, dass er, bevor er 
das individuelle Leistungsprof il analysieren kann, zunachst 
herausfinden muss, welcher Algorithmustyp gerade aktiv ist. 
Wesentlich schwieriger wird es fur den Angreifern, wenn zwei 
Kryptocoprozessortypen parallel arbeiten, da sich dann Lei- 
stungsprofile von zwei vollig verschiedenen Algorithmus-Typen 
an dem gemeinsamen Stromversorgungsanschluss iiberlagern. 

Dieses Szenario kann prinzipiell immer erreicht werden, wenn 
der Kryptocoprozessor derart ausgestaltet ist, dass ein Typ 
von Kryptocoprozessoren gewissermafien eine "Dummy"-Berechnung 
ausfiihrt, selbst wenn lediglich ein einziger anderer Krypto- 
coprozessortyp angesprochen ist. Wenn der "Dummy"- 
Kryptocoprozessor zufallig ausgewahlt wird, so wird es einem 
Angreifer noch schwerer gemacht, Parameter des "Nutz"- 
Kryptocoprozessoralgorithmus zu eruieren, da er, selbst wenn 
immer der gleiche Nutz-Algorithmus ausgefiihrt, nicht weili, 
welches andere Modul gerade arbeitet . Die Sicherheit steigt 
somit mit der Anzahl der verschiedenen Kryptocoprozessoren 
auf dem Kryptographieprozessorchip. 
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Bevorzugte Ausftlhrungsbeispiele der vorliegenden Erfindung 
werden nachfolgend bezugnehmend auf die beiliegenden Zeich- 
nungen detailliert erlautert. Es zeigen: 

Fig. 1 einen erf indungsgemaBen Kryptographieprozessor, der 
auf einem einzigen Chip integriert ist; 

Fig. 2 eine detailliertere Darstellung der Mehrzahl von 

autarken Coprozessoren, die von einer CPU angesteu- 
ert werden; 

Fig. 3 eine detailliertere Darstellung einer 

Arithmetikeinheit, welche fiir eine Drei-Operanden- 
Addition geeignet ist; 

Fig. 4a ein schematisch.es Flussdiagramm zum DurchfUhren ei- 
ner modularen Multiplikation auf seriell/parallele 
Art und Weise; 

Fig. 4b ein Zahlenbeispiel zur Veranschaulichung der seri- 
ell/parallelen Arbeitsweise einer Arithmetikeinheit 
am Beispiel einer Multiplikation; 

Fig. 5 ein Beispiel zum Aufteilen einer modularen Exponen- 
tiation in eine Anzahl von modularen Multiplikatio- 
nen; 

Fig. 6 ein weiteres Beispiel zum Aufteilen einer modularen 
Multiplikation auf verschiedene Coprozessoren; und 

Fig. 7 eine Computerplatine mit einer Vielzahl von ge- 
trennt versorgten Bauelementen. 
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Bevor detaillierter auf die einzelnen Figuren eingegangen 
wird, wird im nachfolgenden ausgefiihrt, weshalb durch Paral- 
lelschaltung mehrerer Coprozessoren, die auf einem Chip ange- 
ordnet sind und durch eine Steuereinheit, die auf demselben 
Chip angeordnet ist, gesteuert werden, eine hohere Sicherheit 
erreicht wird. 

Kryptographieprozessoren werden fUr sicherheitskritische An- 
wendung benutzt, beispielsweise ftir digitale Signaturen, Au- 
thentif ikationen oder Verschltisselungsaufgaben. Ein Angreifer 
mochte beispielsweise den geheimen Schltissel herausf inden, urn 
dadurch das Kryptographieverf ahren zu brechen. Kryptographie- 
prozessoren werden beispielsweise in Chipkarten eingesetzt, 
welche, wie es bereits ausgefiihrt worden ist, Smart Cards 
oder Signaturkarten fur eine rechtsverbindliche elektronische 
Unterschrift oder auch fur Homebanking oder zum Bezahlen mit 
dem Mobiltelephon usw. umfassen. Alternativ werden solche 
Kryptographieprozessoren auch in Computern und Servern als 
Sicherheits-IC eingesetzt, um eine Authentif ikation durchzu- 
fuhren, oder um Verschltisselungsaufgaben wahrnehmen zu k6n- 
nen, welche beispielsweise im sicheren Bezahlen tiber das In- 
ternet, in sogenannten SSL-Sessions (SSL = Secure Socket Lay- 
er) , d. h. der sicheren Obermittlung von Kreditkartennummern, 
bestehen konnen. 

Typische physikalische Angriffe messen den Stromverbrauch 
(SPA, DPA, Timing-Attacken) oder die elektromagnetische Ab- 
strahlung. Beztiglich einer naheren Erlauterung der Angriffe 
sei auf die eingangs erwahnten Literaturstellen verwiesen. 

Da die Angreifer bei der heutigen Halbleitertechnologie, wel- 
che Strukturen im Bereich von typischerweise kleiner oder 
gleich 250 Nanometern erreicht, nur sehr schwer lokale Strom- 
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messungen durchftihren konnen, wird bei einem Angriff typi- 
scherweise der Stromverbrauch der gesamten Chipkarte ein- 
schliefilich CPU und Coprozessor gemessen, welcher sich aus 
der Summe der einzelnen Stromverbrauche von beispielsweise 
der CPU, dem RAM, einem ROM, einem E 2 PROM, einem Flash- 
Memory, einer Zeitsteuereinheit, einem Zuf allszahlengenerator 
(RNG) , einem DES-Modul und dem Kryptocoprozessor zusammen- 
setzt . 

Da die Kryptocoprozessoren typischerweise den groftten Strom- 
verbrauch haben, kann ein Angreifer sehen, wann die einzelnen 
Kryptocoprozessoren zu rechnen beginnen, wenn die einzelnen 
Coprozessoren einzeln mit Leistung versorgt werden. Urn dies 
zu vermeiden, ware ein uber der Zeit vollstandig konstanter 
Stromverbrauch das Ziel, ein Angreifer wurde dann nicht mehr 
erkennen, wann ein Kryptocoprozessor zu rechnen beginnt. Die- 
ses ideale Ziel kann nicht erreicht werden, es wird jedoch 
durch das erf indungsgemafle Parallelschalten von Coprozessoren 
ein mdglichst gleichf ormiges „Rauschen" urn einen Mittelwert 
angestrebt und erreicht. 

Der Stromverbrauch eines beispielsweise in CMOS-Technologie 
gefertigten Chips andert sich bei einer Umschaltung von einer 
"0" auf eine "1". Daher ist der Stromverbrauch datenabhangig 
sowie abhangig von den verwendeten Befehlen der CPU und der 
Kryptocoprozessoren . 

Schaltet man nun mehrere Coprozessoren parallel und lasst sie 
mehrere Operationen bzw. Teiloperationen parallel abarbeiten, 
oder wird eine Operation auf mehrere Coprozessoren aufge- 
teilt, so uberlagern sich, wie es ausgefiihrt worden ist, die 
Stromprof ile, welche durch die Daten- und Bef ehlsverarbeitung 
entstehen. 
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Je mehr Coprozessoren parallel arbeiten, desto schwieriger 
kann auf Daten und Befehle in den einzelnen Coprozessoren 
bzw. in der Steuereinheit zuruckgeschlossen werden, da die 
Daten und Befehle in jedem Coprozessor iiblicherweise unter- 
schiedlich sein werden, der Angreifer jedoch nur die Uberla- 
gerung unterschiedlicher Befehle und nicht die auf einzelne 
Befehle zuruckgehenden Stromprofile sieht. 

Fig. 1 zeigt.einen erf indungsgemalien Kryptographieprozessor 
zum Durchfiihren von Operationen fur kryptographische Anwen- 
dungen. Der Kryptographieprozessor ist auf einem einzigen 
Chip 100 implementiert und umfasst eine zentrale Verarbei- 
tungseinheit (CPU) 102 und eine Mehrzahl von Coprozessoren 
104a, 104b, 104c. Die Coprozessoren sind, wie es in Fig. 1 
gezeigt ist, auf demselben Chip angeordnet wie die zentrale 
Verarbeitungseinheit 102. Jeder Coprozessor der Mehrzahl von 
Coprozessoren umfasst eine eigene arithmetische Einheit. Vor- 
zugsweise umfasst jeder Coprozessor 104a, 104b, 104c neben 
der AU auch zumindest ein Register (REG) , urn, wie es bezug- 
nehmend auf Fig. 2 ausgefuhrt wird, Zwischenergebnisse spei- 
chern zu konnen. 

Ein typischer Kryptographieprozessor wird eine Eingangs- 
schnittstelle 114 und eine Ausgangsschnittstelle 116 umfas- 
sen, welche mit aulieren Anschlussen ftir eine Dateneingabe 
bzw. eine Datenausgabe sowie mit der CPU 102 verbunden sind. 
Typischerweise ist der CPU 102 ein eigener Speicher 118 zuge- 
ordnet, der in Fig. 1 mit RAM bezeichnet ist. Unter anderem 
kann der Kryptographieprozessor noch einen Taktgenerator 120, 
weitere Speicher, Zuf allszahlengeneratoren etc. umfassen, 
welche in Fig. 1 nicht gezeigt sind. 
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Es sei darauf hingewiesen, dass samtliche in Fig. 1 darge- 
stellten Elemente auf einem einzigen Chip implementiert sind, 
welcher durch einen einzigen Stromversorgungsanschluss 122 
mit Leistung versorgt wird. Der Chip 100 umfasst intern 
Stromversorgungsleitungen zu samtlichen in Fig. 1 gezeigten 
Elementen, welche jedoch aus oben angegebenen Grunden nicht 
einzeln abgehort werden konnen. 

Dagegen stellt es ein Leichtes dar, den Stromversorgungsan- 
schluss 122 abzuhoren. Im Gegensatz zu der in Fig. 7 gezeig- 
ten Platine, bei der die Stromversorgungsanschlusse aller 
einzelnen Komponenten sehr leicht abhorbar sind, und. daher 
sehr "ausdrucksstarke" Stromprofile haben, ist das am Strom- 
versorgungsanschluss 122 anliegende Stromprofil nahezu kon- 
stant bzw. weist ein moglichst homogenes Rauschen urn einen 
konstanten Wert auf. Dies ist darauf zuruckzufiihren, dass die 
Coprozessoren 104a, 104b, 104c, welche am meisten zum Strom- 
verbrauch beitragen, bei entsprechender Ansteuerung bzw. bei 
entsprechendem Aufbau unabhangig voneinander beispielsweise 
von "0" auf "1" umschalten und daher unkorreliert voneinander 
Strom verbrauchen. 

Die Parallelschaltung der einzelnen Coprozessoren fuhrt zudem 
dazu, dass der Durchsatz des Kryptographieprozessors erhoht 
werden kann, so dass im Falle der Ausfuhrung eines Speichers 
auf dem Chip die damit einhergehenden Geschwindigkeitseinbu- 
lien, welche aufgrund unterschiedlicher Technologien fur Spei- 
cher und Rechenwerke auftreten, mehr als ausgeglichen werden 
konnen. 

Der Kryptographieprozessor von Fig. 1 umfasst, wie es bereits 
ausgefuhrt worden ist, eine CPU 102, welche tiber einen Bus 
101 mit einer Mehrzahl von Kryptocoprozessoren 104a, 104b, 
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104c verbunden ist. Erf indungsgemafl wird eine Homogenisierung 
des Leistungsprof ils an dem gemeinsamen Stromversorgungsan- 
schluss 122 bereits durch zwei voneinander getrennte autarke 
Kryptocoprozessoren 104a und 104b erreicht. Die Sicherheit 
wird verbessert, wenn die beiden Kryptocoprozessoren 104a und 
104b unterschiedlich ausgefiihrt sind, d. h. entweder unter- 
schiedliche Teiloperationen einer arithmetischen Operation 
ausfilhren konnen bzw. Rechenwerke fur verschiedene kryptogra- 
phische Algorithmen haben, wie z. B. fur asyitunetrische Ver- 
schlusselungsverfahren (z. B. RSA) , symmetrische Verschliisse- 
lungsverfahren (DES, 3DES oder AES) , Hash-Module zur Berech- 
nung von Hash-Werten und dergleichen. Der Durchsatz wird er- 
hoht, wenn fur jeden kryptographischen Algorithmustyp eine 
Mehrzahl von Kryptocoprozessoren parallel geschaltet wird. So 
zeigt Fig. 1 n x parallel geschaltete Kryptocoprozessoren, 
welche alle derart ausgestaltet sind, dass sie z. B. bei RSA- 
Algorithmen auftretende Operationen ausftihren konnen. In der 
zweiten Coprozessorzeile von Fig. 1 sind n 2 komplette autarke 
Kryptocoprozessoren gezeigt, welche beispielsweise alle fur 
arithmetische Operationen ausgestalteten, die fur DES- 
Algorithmen erforderlich sind. SchlieMich sind in der drit- 
ten Kryptocoprozessorzeile von Fig. 1 n± autarke Kryptocopro- 
zessoren dargestellt, welche alle fUr Operationen ausgestal- 
tet sind, die beispielsweise bei Hash-Berechnungen erforder- 
lich sind. Damit kann eine erhebliche Durchsatzsteigerung fur 
die verschiedenen kryptographischen Algorithmen bzw. Opera- 
tionen, welche fur dieselben erforderlich sind, erreicht wer- 
den, wenn diese Operationen bzw. durch den kryptographischen 
Algorithmus vorgegebene Aufgaben auf parallele autarke Re- 
chenwerke verteilt werden konnen. 

Ein solcher multifunktionaler Kryptographieprozessor, welcher 
eine Mehrzahl von Kryptocoprozessoren fur unterschiedliche 
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Aufgaben umfasst, ist auch dann vorteilhaft verwendbar, wenn 
der in Fig. 1 gezeigte Kryptographieprozessor, welcher bei- 
spielsweise auf einer Smart Card implementiert ist, derart 
angesteuert wird, dass er nur einen kryptographischen Algo- 
rithmus bearbeiten muss. Vorteilhaf terweise ist die CPU der- 
art ausgestaltet, dass sie in diesem Fall einen eigentlich 
ruhenden Kryptocoprozessortyp ansteuert, damit derselbe "Dum- 
my"-Berechnungen ausfuhrt, derart, dass ein Angreifer am 
Stromversorgungseingang 122 zumindest zwei uberlagerte Lei- 
stungsprof ile sieht. Vorteilhaf terweise wird der Kryptocopro- 
zessortyp, welcher Dummy-Be rechnungen ausfuhrt, zufallig aus- 
gewahlt, so dass ein Angreifer, selbst wenn er herausgefunden 
hat, welcher Coprozessortyp die Nutzberechnungen ausfuhrt, 
niemals weili, welcher Kryptocoprozessortyp gerade Dummy- 
Berechnungen durchfuhrt, wobei gewissermaJien ein "Dummy- 
Leistungsprof il" dem "Nutz-Leistungsprof il" am gemeinsamen 
Stromversorgungsanschluss iiberlagert ist. 

Fig. 2 zeigt eine detailliertere Darstellung der Kryptocopro- 
zessoren 104a, 104b und 104c. Wie es in Fig. 2 gezeigt ist, 
umfasst der autarke Kryptocoprozessor 104a eine arithmetische 
Einheit 106a, drei Register 106b bis 106d sowie eine eigene 
Steuereinheit 106e. Dasselbe gilt fur den Kryptocoprozessor 
104b, welcher ebenfalls eine arithmetische Einheit 108a, bei- 
spielsweise drei Register 108b bis 108d sowie eine eigene 
Steuereinheit 108e aufweist. Analog dazu ist der Kryptocopro- 
zessor 104c auf gebaut . 

In Fig. 2 ist ferner schematisch die Einrichtung zum Variie- 
ren der Reihenfolge 200 als Teil der CPU gezeigt. Dasselbe 
gilt fur eine Einrichtung 202 zum Steuern von Dummy- 
Berechnungen, welche ebenfalls als Teil der CPU 102 darge- 
stellt ist. Die Einrichtung 202 ist bei einem bevorzugten - 
Ausfiihrungsbeispiel der vorliegenden Erfindung angeordnet, um 
zufallig den Kryptocoprozessor bzw. den Typ von Kryptocopro- 
zessoren anzuwahlen, der parallel zur Nutzberechnung eines 
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anderen Kryptocoprozessortyps die Dummy-Berechnungen ausfiih- 
ren soil. 

Beziiglich der verschiedenen Kryptographie-Algorithmen bzw. 
Hardware-Realisierungen derselben wird auf "Handbook of 
Applied Cryptography, Menezes, van Oorschot und Vanstone, CRC 
Press, 1997, verwiesen. 

Gemaft einem bevorzugten Ausfilhrungsbeispiel kann die Steuer- 
einheit 105 die beiden Coprozessoren 106 und 108 beispiels- 
weise auch derart ansteuern, dass die arithmetischen Einhei- 
ten AUi und AU 2 so miteinander verkoppelt werden, dass beide 
Coprozessoren, welche dann einen Cluster bilden, arithmeti- 
sche Operationen mit Zahlen einer Lange Li + L 2 durchfuhren. 
Die Register der beiden Coprozessoren konnen somit zusammen- 
geschaltet werden. 

Alternativ kann einem Coprozessor jedoch auch eine Anzahl von 
Registern exklusiv zugewiesen werden, welche so grofl ist, 
dass die Operanden fur mehrere Teiloperationen, wie z. B. mo- 
dulare Multiplikationen oder modulare Exponentiationen, aus- 
reichen. Zur Vermeidung von Informationslecks konnen die Tei- 
loperationen dann beispielsweise durch eine Einrichtung zura 
Variieren der Reihenfolge derselben, die in Fig. 2 mit 200 
bezeichnet ist, iiberlagert oder sogar zufallig vermischt wer- 
den, urn noch eine weitere Verschleierung des Stromprofils zu 
erreichen. Dies wird besonders dann vorteilhaft sein, wenn 
beispielsweise lediglich zwei Coprozessoren vorhanden sind 
bzw. lediglich zwei Coprozessoren arbeiten, wahrend die ande- 
ren Coprozessoren eines Kryptographieprozessors gerade still- 
stehen. 

Gemafi einem bevorzugten Ausfilhrungsbeispiel der vorliegenden 
Erfindung umfasst die Steuereinheit 105 ferner eine in Fig. 2 
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nicht gezeigte Einrichtung zum Abschalten von Coprozessoren 
bzw. Registern von Coprozessoren, wenn dieselben nicht bene— 
tigt werden, was besonders fur batteriebetriebene Anwendungen 
von Vorteil sein kann, urn den Stromverbrauch der Gesamt- 
Schaltung zu sparen. CMOS-Bauelemente benotigen zwar nur si- 
gnifikant Strom, wenn umgeschaltet wird, sie haben jedoch 
auch einen Ruhestroiaverbrauch, welcher dann ins Gewicht fal- 
len kann, wenn die zur Verfugung stehende Leistung begrenzt 
ist . 

Wie es bereits ausgefuhrt worden ist, hat ein Kryptographie- 
prozessor aufgrund der langen Zahlen, die er verarbeiten 
muss, die Eigenschaft, dass bestimmte Teiloperationen, wie z. 
B. eine Seriell/Parallel-Multiplikation, wie sie bezugnehmend 
auf die Fig. 4a und 4b dargestellt wird, ziemlich viel Zeit 
benotigt. Bevorzugterweise sind die Coprozessoren derart aus- 
gefuhrt, dass sie eine solche Teiloperation selbstandig ohne 
Eingriffe der Steuereinheit 105 durchfuhren konnen, nachdem 
die Steuereinheit den erforderlichen Befehl an das Rechenwerk 
abgegeben hat. Hierzu benotigt jeder Coprozessor selbstver- 
standlich Register zum Speichern der Zwischenlosungen. 

Aufgrund der Tatsache, dass ein Coprozessor ohne Input der 
CPU 102 relativ lange arbeitet, kann die CPU 102 eine Viel- 
zahl von einzelnen Coprozessoren gewissermalien seriell, also 
nacheinander, mit den notigen Befehlen versehen, derart, dass 
samtliche Coprozessoren parallel arbeiten, jedoch gewisserma- 
Jien zeitlich gestaffelt zueinander. 

Zum Beispiel wird das erste Coprozessor zu einem bestimmten 
Zeitpunkt aktiviert. Ist die CPU 102 mit der Aktivierung des 
ersten Coprozessors fertig, so ftihrt dieselbe unmittelbar die 
Aktivierung des zweiten Coprozessors durch, wahrend der erste 
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Coprozessor bereits arbeitet. Der dritte Coprozessor wird 
dann aktiviert, wenn die Aktivierung des zweiten Coprozessors 
vollendet ist. Dies bedeutet, dass wahrend der Aktivierung 
des dritten Coprozessors der erste und der zweite Coprozessor 
bereits rechnen. Wenn dies fur alle n Coprozessoren durchge- 
fiihrt wird, so arbeiten alle Coprozessoren zeitlich versetzt. 
Wenn alle Coprozessoren derart arbeiten, dass ihre Teilopera- 
tionen gleich lang dauern, so wird der erste Coprozessor als 
erster fertig sein. 

Nun kann die CPU die Ergebnisse vom ersten Coprozessor erhal- 
ten und ist damit idealerweise fertig, bevor der zweite Co- 
prozessor fertig ist. Damit kann der Durchsatz wesentlich er- 
hoht werden, wobei auch eine optimale Ausnutzung der Rechen- 
kapazitat der CPU 102 erreicht wird. Wenn samtliche Coprozes- 
soren identische Operationen ausfuhren, so entsteht dennoch 
ein stark verschleiertes Stromprofil, da samtliche Coprozes- 
soren zeitlich versetzt arbeiten. Anders ware der Fall, wenn 
samtliche Coprozessoren durch die CPU zum gleichen Zeitpunkt 
aktiviert werden und gewissermaJien vollstandig synchron ar- 
beiten. Dann wurde ein nicht verschleiertes Stromprofil und 
sogar noch verstarktes Stromprofil result ieren. Daher ist das 
serielle Aktivieren der Coprozessoren auch im Hinblick auf 
die Sicherheit des Kryptographieprozessors vorteilhaft. 

Im nachfolgenden wird auf Fig. 3 eingegangen, welche eine 
Vorrichtung zum Durchfuhren einer Drei-Operanden-Addition 
darstellt, wie sie rechts in Fig. 3 formelmaliig angegeben 
ist. In der Formel rechts in Fig. 3 ist dargestellt, dass Ad- 
dition und Subtraktion gleichermaBen ausgeftihrt werden, da 
ein Operand einfach mit dem Faktor "-1" multipliziert werden 
muss, um zu einer Subtraktion zu kommen. Die Drei-Operanden- 
Addition wird mittels eines Drei-Bit-Addierers, welcher ohne 
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Obertrag arbeitet, d. h. eines Halbaddierers, und eines nach- 
geschalteten Zwei-Bit-Addierers, durchgefuhrt, welcher mit 
Obertrag arbeitet, d. h. welcher ein Volladdierer ist. Alter- 
nativ kann auch der Fall auftreten, daft zum Operanden Z nur 
der Operand N, nur der Operand P oder gar kein Operand hinzu- 
zuaddieren bzw. zu subtrahieren ist. Dies ist in Fig. 3 durch 
die „Null" unter dem Plus/Minus-Zeichen symbolisiert und wird 
durch die in Fig. 4a dargestellten sogenannten Look-Ahead- 
parameter ai, bi symbolisiert, die in jedem Iterationsschritt 
erneut berechnet werden. 

Fig. 3 zeigt einen sogenannten Bit-Slice eines solchen Ad- 
dierwerks. FUr die Addition von drei Zahlen mit beispielswei- 
se 1024 Binarstellen wurde die in Fig. 3 gezeigte Anordnung 
fur einen vollstandig parallelen Betrieb 1024 mal in der 
arithmetischen Einheit eines Rechenwerks 106 vorhanden sein. 

Bei einem bevorzugten Ausfuhrungsbeispiel der vorliegenden 
Erfindung ist jeder Coprozessor 106 bis 112 (Fig. 1) angeord- 
net, um eine modulare Multiplikation unter Verwendung des 
Look-Ahead-Algorithmus auszufuhren, der in der DE 36 31 992 
C2 dargelegt ist. 

Eine hierfur erf orderliche modulare Multiplikation wird an- 
hand von Fig. 4b erlautert. Es besteht die Aufgabe, die Bi- 
narzahlen "111" und "101" miteinander zu multiplizieren. 
Hierzu wird in einem Coprozessor diese Multiplikation analog 
einer Multiplikation zweier Zahlen gemaft der bekannten 
„Schulmathematik" ausgefilhrt, jedoch mit binarer Zahlendar- 
stellung. Aufgrund der Einfachheit der Darstellung wird nach- 
folgend der Fall betrachtet, in dem kein Look-Ahead- 
Algorithmus und keine Modulo-Reduktion eingesetzt wird. Wenn 
dieser Algorithmus durchgefilhrt wird, so ergibt sich zunachst 
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ein erstes Partialprodukt ,,111". Dieses Partialprodukt wird 
dann, um seine Signifikanz zu beriicksichtigen, um eine Stelle 
nach links verschoben. Zu dem ersten nach links verschobenen 
Partialprodukt, das als Zwischenergebnis eines ersten Itera- 
tionsschritts aufgefaftt werden kann, wird dann, in einem 
zweiten Iterationsschritt das zweite Partialprodukt ,,000" 
hinzuaddiert . Das Ergebnis dieser Addition wird dann wieder 
um eine Stelle nach links verschoben. Das verschobene Ergeb- 
nis dieser Addition ist dann das aktualisierte Zwischenergeb- 
nis. Zu diesem aktualisierten Zwischenergebnis wird dann das 
letzte Partialprodukt ,,111'" hinzuaddiert. Das erhaltene Er- 
gebnis ist dann das Endergebnis der Multiplikation. Es ist zu 
sehen, daft die Multiplikation in zwei Additionen und zwei 
Verschiebungsoperationen aufgeteilt worden ist. 

Es ist ferner zu sehen, dafi der Multiplikand M das Partial- 
produkt darstellt, wenn die betrachtete Stelle des Multipli- 
kators eine binare "1" ist. Das Partialprodukt ist hingegen 
0, wenn die betrachtete Stelle des Multiplikators eine binare 
"0" ist. Ferner werden durch die jeweiligen Verschiebungsope- 
rationen die Stellen bzw. die Wertigkeiten der Partialproduk- 
te berticksichtigt . In Fig. 4b ist dies durch das versetzte 
Auftragen der Partialprodukte dargestellt. HardwaremaMg wer- 
den fur die Addition von Fig. 4b zwei Register Zj. und Z 2 be- 
notigt. Das erste Partialprodukt konnte in dem Register Zi 
gespeichert werden und dann in diesem Register um ein Bit 
nach links geschoben werden. Das zweite Partialprodukt konnte 
in dem Register Z 2 gespeichert werden. Die Zwischensumme 
konnte dann wieder im Register Zi gespeichert werden und dann 
wieder um ein Bit nach links geschoben werden. Das dritte 
Partialprodukt wiirde wieder im Register Z 2 gespeichert wer- 
den. Das Endergebnis wiirde dann im Register Zi stehen. 
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Ein schematisch.es Flussdiagramm fiir das in Fig. 4b gezeigte 
Verfahren findet sich in Fig. 4a. Zunachst werden in einem 
Schritt S10 die in einem Coprozessor vorhandenen Register in- 
itialisiert. In einem Schritt S12 wird anschliefiend, nach dem 
Initialisieren, eine Drei-Operanden-Addition durchgefuhrt, um 
das erste Partialprodukt zu berechnen. Es sei darauf hinge- 
wiesen, dass fur das einfache in Fig. 4b gegebene Beispiel, 
das eine Multiplikation ohne Modulo-Operation darstellt, die 
in Fig. S12 bezeichnete Gleichung lediglich Z, ai und Pi um- 
fassen wurde. ai kann als erster Look-Ahead-Parameter be- 
zeichnet werden. In der allereinf achsten Ausfuhrung hat a 
einen Wert von "1", wenn die betrachtete Stelle des Multipli- 
kators 0 eine 1 ist. a ist gleich Null, wenn die betrachtete 
Stelle des Multiplikators eine Null ist. 

Die in Block S12 dargestellte Operation wird parallel fur al- 
le beispielsweise 1024 Bit durchgefuhrt. Darauf hin wird in 
einem Schritt S14 im einfachsten Fall eine Verschiebungsope- 
ration um eine Position nach rechts durchgefuhrt, um zu be- 
rucksichtigen, dass das hQchstwertige Bit des 2. Partialpro- 
dukts eine Stelle niedriger angeordnet ist als das hochstwer- 
tige Bit des 1. Partialprodukts . Haben mehrere aufeinander- 
folgende Bits des Multiplikators O eine Null, so findet eine 
Verschiebung um mehrere Positionen nach rechts statt. 
SchlieJJlich wird in einem Schritt S16 wieder die parallele 
Drei-Operanden-Addition beispielsweise unter Verwendung der 
in Fig. 3 gezeigten Addiererkette, durchgefuhrt. 

Dieses Verfahren wird fortgesetzt, bis alle beispielsweise 
1024 Partialprodukte aufaddiert sind. Seriell/Parallel bedeu- 
tet also die parallele Durchfiihrung in dem Block S12 oder 
SI 6, und das serielle Verarbeiten, um nacheinander alle Par- 
tialprodukte miteinander zu kombinieren. 
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Im nachfolgenden wird auf die Fig. 5 bis 7 eingegangen, um 
einige Beispiele daftir zu geben, wie eine Operation in be- 
stimmte Teiloperationen aufgeteilt werden kann. Betrachtet 
wird in Fig. 5 die Operation x d mod N. Zur Zerlegung dieser 
modularen Exponentiation wird der Exponent d in binarer 
Schreibweise dargestellt. Wie es in Fig. 5 dargestellt ist, 
ergibt sich dadurch eine Kette von modularen Multiplikatio- 
nen, wobei, wie es ebenfalls in Fig. 5 dargestellt ist, jede 
modulare Einzeloperation je einem Coprozessor zugeordnet wer- 
den kann, derart, dass samtliche modularen Operationen paral- 
lel durch den in Fig. 1 gezeigten Kryptographieprozessor aus- 
gefuhrt werden. Die dann erhaltenen Zwischenergebnisse wer- 
den, nachdem sie parallel ermittelt worden sind, aufmultipli- 
ziert, um das Ergebnis zu erhalten. Die CPU 102 steuert dabei 
die Aufteilung auf die einzelnen Coprozessoren CPi bis CP k 
und dann das abschlieJiende Aufmultiplizieren der einzelnen 
Zwischenergebnisse . 

In Fig. 6 ist ein weiteres Beispiel fur eine Aufteilung einer 
Operation (a*b) mod c in mehrere modulare Operationen ge- 
zeigt. Wieder kann der Coprozessor CPi ein erstes Zwischener- 
gebnis ermitteln. Die Coprozessoren CP 2 bis CP n berechnen 
ebenfalls Zwischenergebnisse, woraufhin, nach Erhalten der 
Zwischenergebnisse, die CPU 102 die Aufmultiplikation der 
Zwischenergebnisse steuert. Die CPU steuert die Auf summation 
z. B. so, dafi sie einen Coprozessor auswahlt, der dann die 
Zwischenergebnisse zur Auf summation erhalt. Auch hier wird 
also eine Operation in mehrere voneinander unabhangige Teilo- 
perationen aufgeteilt. 

Es sei darauf hingewiesen, dass viele Moglichkeiten bestehen, 
um die eine oder andere Operation in Teiloperationen aufzu- 
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teilen. Die in Fig. 5 und 6 gegebenen Beispiele dienen ledig- 
lich zur Veranschaulichung der Moglichkeiten zur Aufteilung 
einer Operation in eine Mehrzahl von Teiloperationen, wobei 
durchaus gunstigere Aufteilungen hinsichtlich der erreichba- 
ren Performance existieren konnen. Wesentlich an den Beispie- 
len ist somit nicht die Performance des Prozessors, sondern 
daft Aufteilungen existieren, so dass jeder Coprozessor eine 
unabhangige Teiloperation durchfiihrt, und dass eine Mehrzahl 
von Coprozessoren von einer zentralen Verarbeitungseinheit 
gesteuert wird, urn ein moglichst verschleiertes Stromprofil 
am Stromeingang in den Chip zu erhalten. 
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Bezugszeichenliste 

100 Chip 

101 Bus 

102 CPU 

104a Coprozessor 

104b Coprozessor 

104c Coprozessor 

106a arithmetische Einheit AU 1 

106b Register 1 

106c Register 2 

106d Register 3 

106e Steuereinheit 

108a arithmetische Einheit AU 2 

108b Register 1 

108c Register 2 

108d Register 3 

108e Steuereinheit 

114 Eingangsschnittstelle 

116 Ausgangsschnittstelle 

118 RAM 

120 Taktgenerator 

122 Stromversorgungsanschluss 

200 Einrichtung zum Variieren der Reihenfolge 

202 Einrichtung zum Steuern von Dummy-Berechnungen 

800 Computerplatine 

802 CPU i ' 

804 RAM 

806 erster Coprozessor 
808 zweiter Coprozessor 
810 dritter Coprozessor 
812 Bus 

814 Speicher 1 
816 Speicher 2 
818 Speicher 3 

Ii - I 8 Stromversorgungsanschltisse 
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PatentansprUche 

1. Kryptographieprozessor zum Durchftihren von Operationen fur 
kryptographische Anwendungen, mit folgenden Merkmalen: 

einer Mehrzahl von Coprozessoren (104a, 104b, 104c) , wobei 
jeder Coprozessor eine Steuereinheit (106e, 108e) und eine 
arithmetische Einheit (106a, 108a) aufweist; 

einer zentralen Verarbeitungseinrichtung (102) zum Ansteuern 
der Mehrzahl von Coprozessoren; und 

einem Bus (101) zum Verbinden jedes Coprozessors mit der zen- 
tralen Verarbeitungseinheit, 

wobei die zentrale Verarbeitungseinheit, die Mehrzahl von Co- 
prozessoren und der Bus auf einem einzigen Chip (100) inte- 
griert sind, und 

wobei der Chip einen gemeinsamen Versorgungsstromzugang (122) 
zum Versorgen der Mehrzahl von Coprozessoren aufweist. 

2. Kryptographieprozessor nach Anspruch 1, 

bei dem jeder Coprozessor (104a, 104b, 104c) der Mehrzahl von 
Coprozessoren fur einen eigenen Typ von kryptographischen Al- 
gorithmen vorgesehen ist, so dass der Kryptographieprozessor 
fur eine Mehrzahl von kryptographischen Algorithmen hardware- 
mafiig ausgestaltet ist. 

3. Kryptographieprozessor nach Anspruch 1, bei dem die Mehr- 
zahl von Coprozessoren einzelne Gruppen von parallel geschal- 
teten Coprozessoren aufweist, wobei jede Gruppe von Coprozes- 
soren fur einen eigenen Typ von kryptographischen Algorithmen 
vorgesehen ist, so dass der Kryptographieprozessor fur eine 
Mehrzahl von kryptographischen Algorithmen geeignet ist. 
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4. Kryptographieprozessor nach Anspruch 2 oder 3, bei dem der 
Typ von kryptographischen Algorithmen aus einer Gruppe ausge- 
wahlt ist, die folgende Mitglieder aufweist: 

DES-Algorithmen, AES-Algorithmen fur symmetrische Verschlus- 
selungsverfahren, RSA-Algoritnmen fur asymmetrische Ver- 
schlusselungsverfahren und Hash-Algorithmen zur Berechnung 
von Hash-Werten. 

5. Kryptographieprozessor nach einem der vorhergehenden An- 
spruche, 

bei dem eine kryptographische Operation in eine Mehrzahl von 
Teiloperationen zerlegbar ist, wobei die zentrale Verarbei- 
tungseinrichtung angeordnet ist, um die Mehrzahl von Teilope- 
rationen auf einzelne Coprozessoren (104a, 104b, 104c) der 
Mehrzahl von Coprozessoren zu verteilen. 

6. Kryptographieprozessor nach einem der vorhergehenden An- 
spruche, 

bei dem sich die Coprozessoren voneinander unterscheiden, so 
dass die Anzahl der verschiedenen mathematischen Operationen, 
die der Kryptographieprozessor hardwaremaJiig durchfuhren 
kann, zumindest gleich der Anzahl von Coprozessoren ist. 

7. Kryptographieprozessor nach einem der vorhergehenden Pa- 
tent anspruche, bei dem die Operationen fur kryptographische 
Anwendungen eine modulare Exponentiation und/oder eine modu- 
lare Multiplikation und/oder eine modulare Additi- 
on/Subtraktion umfassen. 

8. Kryptographieprozessor nach einem der vorhergehenden An- 
spriiche, bei dem jeder Coprozessor angeordnet ist, um binare 
Zahlen mit zumindest 160 Stellen und bevorzugterweise zumin- 
dest 1024 oder 2048 Stellen zu verarbeiten. 
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9. Kryptographieprozessor nach einem der vorhergehenden An- 
spruche, der ferner einen nur der zentralen Verarbeitungsein- 
richtung (102) zugeordneten Speicher (118) aufweist. 

10. Kryptographieprozessor nach einem der vorhergehenden An- 
spruche, der ferner folgendes Merkmal aufweist: 

eine Takterzeugungseinrichtung (120) zum Liefern eines Taktes 
zu der Verarbeitungseinrichtung (102) und der Mehrzahl von 
Coprozessoren, wobei die Takterzeugungseinrichtung ebenfalls 
auf dem einzigen Chip integriert ist. 

11. Prozessor nach einem der vorhergehenden Anspriiche, bei 
dem jeder Coprozessor ferner eine Mehrzahl von Registern 
(106b, 106c, 106d, 108b, 108c, 108d) aufweist, die der arith- 
metischen Einheit (106a, 108a) des jeweiligen Coprozessors 
exklusiv zugewiesen sind. 

12. Prozessor nach Anspruch 11, 

bei dem sich die Lange (Li, L 2 ) der Mehrzahl von Registern, 
die einem Coprozessor zugeordnet sind, und der Lange der 
Mehrzahl von Registern, die einem anderen Coprozessor zuge- 
ordnet sind, unterscheiden, derart, dass die Coprozessoren 
arithmetische Berechnung mit jeweils unterschiedlichen langen 
Zahlen durchfUhren kbnnen. 

13. Kryptographieprozessor nach Anspruch 11 oder Anspruch 12, 
bei dem die Anzahl der Register, die einem Coprozessor zuge- 
ordnet ist, ausreichend ist, um Operanden fur zumindest zwei 
Teiloperationen zu halten, so dass fur zumindest zwei Teilo- 
perationen keine Obertragung von Operanden zwischen den Co- 
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prozessoren (104a, 104b, 104c) und der zentralen Verarbei- 
tungseinrichtung (102) erforderlich ist. 

14. Kryptographieprozessor nach Anspruch 13, bei dem die zen- 
trale Verarbeitungseinheit (102) ferner folgendes Merkmal 
aufweist : 

eine Einrichtung (200) zum zeitlichen Steuern des Betriebs 
der Coprozessoren, derart, dass die Reihenfolge der zumindest 
zwei Teiloperationen, deren Operationen in den Registern ei- 
nes Coprozessors gespeichert werden, einstellbar ist. 

15. Kryptographieprozessor nach einem der Ansprtiche 11 bis 
14, der ferner folgendes Merkmal aufweist: 

eine Einrichtung zum Abschalten von einem Coprozessor, falls 
von der zentralen Verarbeitungseinrichtung bestimmt wird, 
dass fur den einen Coprozessor keine Teiloperationen vorhan- 
den sind, urn den Stromverbrauch des Kryptographieprozessors 
zu verringern. 

16. Kryptographieprozessor nach einem der vorhergehenden An- 
sprtiche, bei dem die zentrale Verarbeitungseinrichtung (102) 
angeordnet ist, urn zumindest zwei Coprozessoren zu einem Clu- 
ster zu verbinden, derart, dass eine Teiloperation dem Clu- 
ster zugewiesen wird, so dass eine Teiloperation durch die 
Coprozessoren des Clusters zusammen ausfiihrbar ist. 

17. Kryptographieprozessor nach einem der Ansprtiche 11 bis 
16, bei dem jeder Coprozessor eine Wortlange hat, die durch 
die Zahlenbreite der jeweiligen arithmetischen Einheit (106a, 
108a) vorgegeben ist, und bei dem die zentrale Verarbeitungs- 
einheit (102) angeordnet ist, um zumindest zwei Coprozessoren 
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so zusammenzuschalten, dass die zusammengeschalteten Copro- 
zessoren eine Berechnung mit Zahlen durchfiihren konnen, deren 
Wortlange gleich der Summe der Zahlenbreiten der zusammenge- 
schalteten Coprozessoren ist. 

18. Kryptographieprozessor nach einem der vorhergehenden An- 
spruche, bei dem die arithmetische Einheit zumindest eines 
Coprozessors ein Seriell/Parallel-Rechenwerk aufweist, das so 
ausgestaltet ist, dass in einem Zyklus eine Anzahl von Rech- 
nungen parallel ausfuhrbar ist, wobei die Anzahl gleich den 
Stellen einer in der Rechnung verwendeten Zahl ist, und in 
einem anderen spateren Zyklus auf serielle Art und Weise un- 
ter Verwendung des Ergebnisses des einen Zyklus dieselbe 
Rechnung wie im ersten Zyklus durchgefiihrt wird. 

19. Kryptographieprozessor nach Patentanspruch 18, bei dem 
ein Coprozessor fur eine modulare Multiplikation ausgeftlhrt 
ist, um in dem einen Zyklus ein Partialprodukt zu einem Er- 
gebnis eines vorherigen Zyklus hinzu zu addieren, und in ei- 
nem weiteren Zyklus das Ergebnis des letzten Zyklus zu einem 
nachsten Partialprodukt hinzu zu addieren. 

20. Kryptographieprozessor nach Patentanspruch 119, bei dem 
die arithmetische Einheit einen Drei-Operanden-Addierer fur 
eine modulare Multiplikation aufweist, welcher fur jede Stel- 
le einer verarbeiteten Zahl folgende Merkmale aufweist: 

einen Halbaddierer fur eine Addition ohne Obertrag mit drei 
Eingangen und zwei Ausgangen; und 

einen nachgeschalteten Volladdierer mit zwei Eingangen und 
einem Ausgang. 
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21. Kryptographieprozessor nach einem der vorhergehenden An- 
spriiche, 

bei dem die zentrale Verarbeitungseinheit (102) eine Einrich- 
tung zum Ansteuern eines Kryptocoprozessors aufweist, um eine 
Dummy-Be rechnung auszuftlhren. 

22. Kryptographieprozessor nach Patentanspruch 18, bei dem 
die Einrichtung (202) zum Steuern von Dummy-Berechnungen an- 
geordnet ist, um den Kryptographieprozessor, der eine Dummy- 
Berechnung ausfuhrt, zufallig auszuwahlen. 
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(57) Abstract: The invention relates to a cryptographic processor for carrying out operations lor cryptographic applications and 
comprising a large number of coprocessors (104a, 104b, 104c), each coprocessor having a control unit and an arithmetic unit, a 
central processing unit (102) for controlling the large number of coprocessors (104a, 104b, 1 04c) and a bus (101) for connecting each 
coprocessor (104a, 104b, 104c) to the central processing unit (102). The central processing unit (102), the majority of coprocessors 
(104a, 104b, 104c) and the bus (101) are integrated into a single chip (100). The chip also comprises a common power supply input 
(122) for supplying the large number of coprocessors (104a, 104b, 104c). The connection in scries of different coprocessors increases 
the throughput of the cryptographic processor and simultaneously improves the security of said processor against attacks, made on 
the basis of an evaluation of output profiles of the cryptographic processor, as the output profiles of at least two coprocessors are 
superimposed. By using different types of coprocessors, the cryptographic processor can also he configured as a multifunctional 
cryptographic processor suitable for use with a multitude of different cryptographic algorithms. 

(57) Zusammenfassung: Ein Kryptographieprozessor zum Durchfuhren von Operationen fiir kryptographische Anwendungen um- 
fasst eine Mehrzahl von Coprozessoren (104a, 104b, 104c), wobei jeder Coprozessor eine Steuereinheit und eine arithmetische 
Einheit aufweist, eine zentrale Verarbeitungscinheit (102) zum Anste^ucrn der Mehrzahl von Coprozessoren (104a, 104b, 104c) und 
einen Bus (101) zum Verbinden jedes Coprozessors (104a, 104b, 104c) mit der zentralen Verarbeitungseinheit (102). Die zentrale 
Verarbcitungseinheit (102), die Mehrzahl von Coprozessoren ( 104a, 104b, 104c) und der Bus (101) sind auf eincm einzigen 
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Chip (100) integriert. Der Chip umfasst ferner einen gemeinsamen Vcrsorgungsstromzugang (122) zum Versorgen der Mehrzahl von 
Coprozessoren (104a, 104b, 104c). Durch Parallelschaltung verschicdcner Coprozessoren wird eine Erhohung des Durchsatzes und 
zugleich eine Verbesserung der Sicherhcit des Kryptographieprozcssors gegenuber Angriffen erreicht, welche auf der Auswertung 
von Leistungsprofilen des Kryptographicprozessors aufbauen, da Leistungsprofile zumindest zweier Coprozessoren iiberlagert sind. 
Ferner kann der Kryptographieprozessor auch durch Verwendung verschiedenartiger Coprozessoren als multifunktionaler Kryp- 
tographieprozessor ausgestaltet wcrden, um fUr eine Vielzahl von vcrschiedenen kryptographischen Algorithmen geeignet zu sein. 
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